Omnilingual ASR Media Transcription - a Hugging Face Space by facebook
1600 以上の多言語で学習
W2V, CTC だけでなく LLM 付き
音声 → wav2vec encoder → Transformer decoder → テキスト
We introduce a mechanism for supplying the model with an additional optional input: a language code together with the desired script.
音声 + <language> + 言語ID + <BOS> + テキスト + <EOS>を入力できて認識させやすくできるらしい
Zero-Shot って言ってるけど Few-Shot じゃないのか?
音声は audio_embedding?
Tokenizer
言語数に対して tokenizer の語彙数少なすぎないか? 文字トークンぽいよね?
調査
code:output
Coverage Results
- Japanese coverage summary (outputs/coverage_summary.json): 常用漢字 2,078/2,136 (97.3%), ひらがな 80/91 (87.9%), カタカナ 80/96 (83.3%), 人名用漢字 608/863 (70.5%), Unicode CJK統合漢字 5,750/20,992 (27.4%), 主要句読点 4/20 (20%).
- 判定: ⚠️不足 ― 常用漢字は概ね揃うものの、かな・人名漢字・句読点に欠落が多く実用面で注意が必要。
Detailed Findings
- 欠落常用漢字(例): 俵, 倹, 勅, 呉, 嬢, 錬, 頰, 麺, 𠮟 など計58字。完全リストは outputs/missing_joyo.csv。
- 欠落ひらがな: ゎ, ゐ, ゑ, ゔ, ゕ, ゖ, ゙, ゚, ゝ, ゞ, ゟ。
- 欠落カタカナ: ヂ, ヅ, ヮ, ヰ, ヱ, ヲ, ヷ, ヸ, ヹ, ヺ, ー, ヽ, ヾ, ヿ, ゙, ゚。
- 欠落句読点: 全角読点・句点・かぎ括弧・中点・波ダッシュ・全角コンマ/ピリオドなど、日本語文で頻出の16種が未収録。
- 人名用漢字は約30%が欠落。福祉・地名などで使う「瑠」「薫」「遡」等が含まれ、固有名詞認識に影響。
- 可視化: カテゴリ別棒グラフ outputs/coverage_plot.png。
Impact Assessment
- 日常会話: 常用漢字97%で表記揺れは限定的だが、「、」「。」が無いと整形後テキストが読みにくい。
- ビジネス文書/ニュース: 拡張人名漢字・句読点欠落により誤変換や表記欠落リスクが高い。
- 人名・地名: 人名用漢字の不足と旧字体未対応でエンティティ認識が不安定。
- 音声認識後処理: 句読点や長音符の欠落で可読性やアクセント差異の表現が困難。